Predicción del éxito de posesiones en fútbol mediante algoritmos de aprendizaje supervisado

Martín Grau Pérez , Lucca Frachelle

2024-12-17

Introducción

Se cuenta con datos de tipo eventing de la consultora especializada StatsBomb (librería StatsBombR) los cuales registran la trayectoria de la pelota para cada uno de los 64 partidos, en este caso, de los mundiales 2022 en Qatar (masculino) y 2023 en Australia/Nueva Zelanda (femenino).

Concretamente, se registra cada una de las acciones (eventos) que ocurren con la pelota así como características relacionadas a éstas: partido, tiempo, duración, equipo, jugador, coordenada de la cancha así como otras variables relativas a cada tipo de evento según corresponda.

Tipos de eventos

Cantidad de eventos por partido

Dispersión por mundial

Dispersión posesiones y pases por partido según mundial

Pases exitosos por partido y posesión

Introducción: posesiones

A raíz de esta información, se construyó un nuevo set de datos que resume las características de cada una de las posesiones de cada partido a través del cual se buscará predecir el éxito de cada una de esas jugadas utilizando como predictores dichas características.

Dicha base nueva contiene características de las casi 10000 secuencias a estudiar. La elección de dichas características es un tanto arbitraria pero se entiende que pueden ser de valor o utilidad a la hora de describir o encontrar ciertos patrones o estilos de juego

Variables

  • coordenadas de inicio y fin de la posesión (así como las zonas de inicio y fin)

  • cantidad de pases y de traslados de balón (totales y exitosos)

  • cantidad de tiros, de centros, de cambios de frente, de ingresos al área rival con pelota controlado, pases dentro del área y de eventos en general realizados

  • promedio de avance en el terreno según sea por pases o traslados con pelota controlada

  • si la jugada es iniciada por el golero

Variables

  • si el golero participa o no de la secuencia

  • si termina en un tiro al arco o en gol

  • velocidad promedio de la posesión teniendo en cuenta los pases y conducciones hacia adelante

  • distancia promedio y mediana de la jugada

  • cantidad de zonas por la que pasa la jugada

  • duración (en segundos) de la posesión

Variables

De esta manera, las observaciones pasan a ser las posesiones de los equipos. Cabe mencionar que en el presente trabajo, de modo de facilitar el análisis, solo se tuvieron en cuenta aquellas jugadas en las que solo realizan acciones con la pelota el equipo dueño de la posesión. Finalmente, luego de este filtrado, se disponen de 9370 jugadas (4961 para el mundial 2022 y 4409 para el de 2023).

Ejemplo de trayectoria

Este tipo de secuencias serán nuestras observaciones

Jugada de Argentina en el partido vs Polonia (masculino)

Variables a usar

Caracteristicas de las Variables para el Modelo - Parte 1
Variable Descripcion Tipo Rango
possession ID de la posesion Numerica 2:283
tiempo Duracion en segs de la jugada Categorica 0:137.71
period Periodo del partido Numerica 1:4
possession_team.id ID del equipo en posesion Categorica
possession_team.name Nombre del equipo en posesion Categorica
team.name Nombre del equipo Numerica
n Cantidad de acciones de la jugada Numerica 2:146
x_inicio Coordenada X de inicio de la jugada Numerica 0.4:120.5
y_inicio Coordenada Y de inicio de la jugada Numerica 0:79.9
x_fin Coordenada X de fin de la jugada Numerica 0.1:120
y_fin Coordenada Y de fin de la jugada Numerica 0:79.9
n_eventos Numero de eventos distintos Numerica 1:11
n_pases Numero de pases Numerica 0:51
n_pasesC Numero de pases completados Numerica 0:51
n_traslados Numero de traslados Numerica 0:38

Variables a usar

Caracteristicas de las Variables para el Modelo - Parte 2
Variable Descripcion Tipo Rango
prom_av_p Promedio de avance por pase realizado Numerica -30.5:104.9
prom_av_t Promedio de avance por traslado realizado Numerica -17.4:56.9
n_jugadores Numero de jugadores que participan en la jugada Numerica 1:17
n_centros Cantidad de centros Numerica 0:3
n_cdf Cantidad de cambios de frente Numerica 0:4
n_pases_arearival Numero de pases dentro del area rival Binaria 0:3
n_ingresos_arearival Numero de ingresos al area rival Categorica 0:2
inicia_golero Si la jugada inicia con el golero Categorica 0: no inicia golero, 1: inicia golero
resultado Estado del marcador al momento de la jugada Categorica 'Empatando', 'Ganando','Perdiendo'
zona_inicio Zona de inicio de la jugada Numerica 1:30
zona_fin Zona de fin de la jugada Numerica 1:30
xG Probabilidad de gol de la jugada (Expected Goal) Numerica 0:0.92805
vel_media_p Velocidad media de los pases Numerica -0.72:1067.5
vel_media_c Velocidad media de los traslados Numerica 0:2275
mundial Mundial al que pertenece el partido Binaria M='Masculino',F='Femenino'

Variables a usar

Caracteristicas de las Variables para el Modelo - Parte 3
Variable Descripcion Tipo Rango
vert_tot Verticalidad total de la posesion Numerica -119.6:116.4
horiz_tot Horizontalidad total de la posesion Numerica -79.90:79.40
dist.promP Distancia promedio de los pases Numerica 0:108.08
dist.promC Distancia promedio de los traslados Numerica 0:62.614
dist.medP Distancia mediana de los pases Numerica 0:108.06
dist.medC Distancia mediana de los traslados Numerica 0:62.614
presion Cantidad de acciones que se realizan bajo presion del rival Numerica 0:23
n_eq Cantidad de acciones del equipo que tiene la posesion Numerica 1:142
exito Exito (o no) de la posesion Binaria 0: no exito, 1: exito

Variables: Éxito

Se define la variable éxito:

  • Si la jugada termina en un tiro al arco

  • Si la jugada termina en un córner a favor

  • Si la mayoría de las acciones se realizan bajo presión del rival y pese a ello se logra mantener la posesión

  • Si la secuencia logra llegar hasta el área rival

  • Si la posesión comienza en campo propio y logra llevar al tercio final con al menos 3 acciones

  • Si el rival no logra recuperar la pelota y comete falta

Variables: Éxito

Tanto las trayectorias en las que el rival logra recuperar la pelota así como aquellas que no cumplen ninguna de las 6 condiciones mencionadas se califican como no exitosas (variable éxito=0).

Además, se busca estudiar si existen diferencias en el género en lo que refiere al estilo de juego y su posterior éxito o no. Para ello, se modelarán por separado las secuencias del mundial masculino y femenino.

División en zonas

División en zonas de la cancha

EDA

Univariado

Univariado

Univariado

Univariado

Univariado

Bivariado

Bivariado

Bivariado

Bivariado

Bivariado

Bivariado

Modelos

Modelos

Se proponenen 4 modelos distintos para el problema de clasificación de la variable exito. Una lasso, un árbol, un random forest y un LightGBM. La idea es usar la lasso para entender como influyen los distintos factores en la variable exito sin perder la interpretabilidad de los resultados. Los otros dos se proponen más con la idea de predecir la variable exito usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos overfitting(random forest) y otro produce menos error en la validación(LightGBM).

Lasso

Correlación entre las variables

Penalidad

Evolución de las métricas

Matriz de Confusion

Métricas

Metric Value
Accuracy 0.778
Sensitivity 0.735
Specificity 0.817
AUC 0.854

Arbol de Decisión

Evolución de las métricas

cost_complexity tree_depth min_n
1.94e-05 12 28

Árbol de Decisión Final

Matriz de Confusion

Métricas

Metric Value
Accuracy 0.867
Sensitivity 0.841
Specificity 0.890
AUC 0.929

Random Forest

mtry min_n
41 4

Matriz de Confusion

Importancia de las variables

Métricas

Metric Value
Accuracy 0.896
Sensitivity 0.911
Specificity 0.883
AUC 0.956

LightGBM

trees min_n tree_depth learn_rate loss_reduction
1211 12 11 0.02114 0.0012734

Matriz de Confusion

Importancia de las variables

Métricas

Metric Value
Accuracy 0.901
Sensitivity 0.899
Specificity 0.903
AUC 0.965

Comparación de los modelos

Model Performance Metrics
Model Accuracy Sensitivity Specificity ROC AUC
Lasso 0.778 0.735 0.817 0.854
Decision Tree 0.867 0.841 0.890 0.929
Random Forest 0.896 0.911 0.883 0.956
LightGBM 0.901 0.899 0.903 0.965

Análisis del Random Forest

Distriubución de posiciones iniciales

Errores del modelo en el testeo

Distriubución de posiciones finales

Errores del modelo en el testeo

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

% error por equipo

Distribución de Errores

Errores segun ranking

Errores segun cantidad de jugadas

Verticalidad total y horizontalidad total

Modelos por mundial

Como extra se realizaron modelos segmentados por mundial, con la idea de evaluar la diferencia en el rendimiento entre los dos mundiales. Para ello, se utilizó el mismo proceso de modelado y evaluación que se detalló en el análisis de los modelos individuales. Se eligen los hiperparámetros que mejoren la curva de ROC AUC y los modelos usados fueron Random Forest y LightGBM.

Importancia de las variables

Horizontalidad por modelo

Modelo Masculino vs Modelo General

Erorres por modelo

Modelo Femenino vs Modelo General

Erorres por modelo